Hyperbolic Image and Text Representations
#paper #100本読み
facebook researchの研究
ICML 2023 Poster (採択率25%)? Karan Desaiらの研究
MERU
Entailment : 必然性
hyperbolic = 双曲線的な、sinh, cosh, tanh, のあれ
CLIPでは超球(hypersphere)上に埋め込まれるが、言語の木構造的特徴を反映するために双曲面(hyperboloid)に埋め込むことが重要だと主張
Being competitive with CLIP's performance
言語には、階層的な概念があるはずである。
テキスト「犬」は、犬を含むすべての画像を暗示している。
つまり、言語情報のほうが画像よりも広い表現となる場合がある。
逆に、画像のほうが広い場合もあるが、言及していない。
Ex. text-to-image retrievalにおける一対多問題
近年のlarge-scale vision and language models(like CLIP)では、明示的にこのような階層構造を捉えているわけではない。
超双曲空間:幾何学的特性として、木構造のようなデータを(階層構造のあるデータを)埋め込むことに適している(なぜEuclidean spaceよりも妥当なのか?)
解釈性の高い「表現空間」(structured representation space)を学習する。画像分類、retrievalといった標準的なマルチモーダルタスクにおいて、CLIPとcompetitive
Representation Manifolds(表現多様体)
CLIP:hypersphere
MERU:hyperboloid
最も一般的な概念を原点と仮定
画像よりもテキストを原点に近づけて埋め込む
この妥当性は少なくともweaknessでは?
CLIP:埋め込みを単位超球面(unit hypersphere)に射影(線形変換)
射影 = 次元が落ちている?
MERU:指数写像を使用してローレンツ超双曲面に写像(lifts them onto ~ )
英語の感じだと次元が上がっている?
contrastive lossは、類似性の評価尺度として、負のLorentzian distanceを使う。
spacial entailment lossとやらは、textは画像を暗示する、という部分的順序を強制している。
https://scrapbox.io/files/653974142129bf001c1127de.png
Entailement loss$ L_2は、ペアになったテキストのembedding$ xによって投影される仮想的な円錐内に画像のembedding$ yを押し込み、外角$ \angle Oxyと円錐の半口径の差として実装される。画像の埋め込みがすでに円錐内にある場合、lossは0となる。
https://scrapbox.io/files/65397465ba0753001ba76176.png
Zero-shot image and text retrievalの検証結果。どのモデルサイズでも、CLIPを上回る性能
画像は通常それを説明する文より遥かに多くの情報を含む
キャプショニングの粒度として、詳細な説明でも曖昧でも良い
「説明するキャプションはたくさんあるよね」よりも強い主張
semantic contentに対する粒度が異なるということ
Vendrovらによれば、概念を意味のある階層的に整理できる
この帰納バイアスをマルチモーダルモデルに組み込むことで、
Generalization (CLIPの話)
interpretability (Grad-camの話)
exploratory data analysis of large-scale datasets (LAION-5Bの話)
の向上が見込まれる
CLIP、ALIGNなどのアプローチでは、高い次元のEuclidean affine spaceとして表現し、embeddingsはL2normによって正規化される。
余談:Transformerには"transferable"があるらしい
affine Euclidean spaceでは、すべてのembeddingに対し同じ方法で、同じ距離尺度で行っている。
階層的な概念を表す時には不適切であると主張
「階層構造の根の近くにあるノード」は、他の特定の概念と比較して、より多くの他の概念に近い。
概念上、階層構造にしたいのに、一般的な概念と具体的な概念が近くなってしまうという問題
その後のロジック的には具体的+具体的の距離だね
一般的な概念に対し、すべての画像を詰めることが難しい(?)
多義性(polysemy)の面から、affine Euclidean spaceが必ずしも良いとは言えない。
関連:Latent Dirichlet allocation
木構造をsoftかつcontinuousとして組み込む -> Nickelらによってこの手法が提案されている
あえてEuclid空間ではなく「歪んだ」空間で埋め込みを作成
「階層構造の根にあるノード」= すべてのテキストの中で最も抽象的 = そんな単語ある?という仮定がちょい気持ち悪さある、まあそれが帰納バイアスなんだが
帰納バイアスの例示がわかりにくい
リーマン多様体と超双曲面空間
hyperbolic space:曲がった空間の一種
Euclidean spaceも含め、総称して多様体と呼ぶ
2次元超球平面:3次元空間の中にある球の表面
球の表面だけを考えるのが超球平面、宇宙から見た地球上の我々の動き
原点から遠くなるほど、空間が広くなるような性質
Poincaré Embeddings for Learning Hierarchical Representationsが理解に必要
滑らかな平面は局所的にEuclideanな2次元平面である.
平面上のすべての点には,微分可能かつ可逆な関数を介して,$ \mathbb{R}^2にマッピング可能な局所的な近傍が存在する.
どれだけ拡大しても,平坦で滑らか,という意味
滑らかな多様体とはこの滑らかな平面の概念を高次元に拡張したものである
リーマン多様体とは,リーマン計量$ gを備えた滑らかな多様体$ \mathcal{M}である$ gは,すべての点$ x\in\mathcal{M}に対する内積関数$ g_xの集合である.
ユークリッド空間を一般化したもの,この場合$ gは標準的なユークリッド内積
双曲空間は,一定の負の曲率を持つリーマン多様体,曲率=0がユークリッド空間
$ n次元の双曲多様体は,距離と角度の両方を保存する方法で$ \mathbb{R}^nで表現することはできない
距離あるいは角度を歪ませる形で表現する
ポワンカレ球モデルなど
$ \mathbb{R}^{n+1}の部分多様体として表現する
ローレンツモデルなど
5つの一般的なモデルが存在することが知られている.
「曲がり方が一定で,内側に凹んでいるような感じ」
image encoder or text encoderからの出力を$ \bm{v}_{\text{enc}}\in\mathbb{R}^nとする.ローレンツモデルによる$ \mathbb{R}^{n+1}での表現を得るために,0をcatする.
これを$ \bm{v}=\lbrack \bm{v}_\text{enc}, 0\rbrack \in\mathbb{R}^{n+1}とする
$ \bm{v}は接空間の条件を満たす.$ \bm{v}_{\text{space}} = \bm{v}_\text{enc}とみなせる.
指数写像(接空間->双曲空間の下の式)は,空間次元のみで記述が可能
$ \bm{x} = \text{expm}_\bm{z}(\bm{v})=\cosh(\sqrt{c}\|\bm{v}\|_{\mathcal{L}})\bm{z}+\frac{\sinh(\sqrt{c}\|\bm{v}\|_{\mathcal{L}})}{(\sqrt{c}\|\bm{v}\|_{\mathcal{L}})}\bm{v}
$ \bm{x}_{\text{space}}=\cosh(\sqrt{c}\|\bm{v}\|_{\mathcal{L}})\bm{0}+\frac{\sinh(\sqrt{c}\|\bm{v}\|_{\mathcal{L}})}{(\sqrt{c}\|\bm{v}\|_{\mathcal{L}})}\bm{v_{\text{space}}}
時間成分が0なので,ローレンツノルムは空間成分のユークリッドノルムに単純化が可能,
更に,$ x_{time}は,$ \bm{x}_{\text{space}}から計算が可能
$ \bm{x}が作成可能,ユークリッド空間のベクトルをわざわざ直交射影を通じて接空間に移す必要はない
指数写像は,sinh,coshなど(指数関数)で写像するが,重みを初期化した際に,normalizeされていると$ v_{space}の次元$ nに対し$ \sqrt{n}のノルムとなる.
$ e^{\sqrt{n}}のノルムサイズになり,大きくなりすぎるため,指数写像にかける前に,学習可能なスカラー$ \alpha_{img},$ \alpha_{text}でスケールして対応,初期値は$ \sqrt{1/n}として,指数写像に入るノルムサイズが1になるようにする.
学習アルゴリズム
意味的に似ているテキストと画像のpair間の距離の
Inferring Concept Hierarchies from Text Corpora via Hyperbolic Embeddingsで提案されたEntailment lossの修正版を使用する.
対照学習設定において,埋め込み対どうしは双曲空間上に存在するゆえに,距離のmetricsがローレンツ空間上の定義で有ることに留意するべきである.この距離を,類似度の尺度として計算する.
単にN+1 pair contrastive lossを用いるだけでなく,ローレンツ空間上でのEntailment lossを使用する。
alt-textとかだけの話に限られないか?キャプション・instructionの粒度だとこの仮定が当てはまらない気がする
定性で見せている
関連研究
Slip: Selfsupervision meets language-image pre-training (Mu+, ECCV22)
Matryoshka Representation Learning. (Kusupati+, NeurIPS22)
研究の流れ
Order-embeddings of images and language (Vendrov+, ICLR16)
Poincaré Embeddings for Learning Hierarchical Representations (Nickel+, NIPS17)
Learning Continuous Hierarchies in the Lorentz Model of Hyperbolic Geometry (Nickel+, ICML18)
連続空間を扱うためにLorentz Modelを使う
Hyperbolic Entailment Cones for Learning Hierarchical Embeddings (Ganea+, ICML18)
Inferring Concept Hierarchies from Text Corpora via Hyperbolic Embeddings (Le+, ACL19)
双曲空間そのものの応用
Hyperbolic Vision Transformers: Combining Improvements in Metric Learning (Ermolov+, CVPR22)
Hyperbolic Image Segmentation (Atigh+, CVPR22)
Hyperbolic Contrastive Learning for Visual Representations beyond Objects (Ge+, CVPR23)
ちょい関連うすそう
LAION-5B: An open large-scale dataset for training next generation image-text models (Schuhmann+, 22)
Grad-cam: Visual explanations from deep networks via gradient-based localization. (Selvaraju+, ICCV17)
これはあれやね,有名論文をとりあえず引用することでPageRank的側面を重視している?
http://noiselab.ucsd.edu/ECE228/Murphy_Machine_Learning.pdf
Introduction to Riemannian Manifolds.
Low rank近似をリーマン多様体上の勾配法で解く方法が以下に記されている.
https://qiita.com/wsuzume/items/3f391369330abefbdb41
hyperbolicへのencoderの基盤モデルチックになりそうではあるので,今後解釈性が高いロジックで書くならこれを試すのはかなり有り
ただし,リーマン多様体上での損失のやり取りや最適化に関する議論はあえて書いていなかったため,その道の専門家からの意見を防いでいる説は濃厚